הרצאה 11 - בעיית הבנדיט

בעיית K armed bandit:

מצב בו עלינו לבחור שוב ושוב בין K פעולות, כאשר כל פעולה מניבה גמול מספרי, ומטרתנו היא למקסם את סך הגמול המצטבר לאורך זמן
ערך הפעולה:
- נבטא כ - $q_{t} * (a)$ שהיא תוחלת הגמול עבור בחירה בפעולה a, מכיוון שהיא אינה ידועה, משתמשים בשערוך $Q_{t} (a)$
סוגי סוכנים (דרכי בחירת פעולה):
- מדיניות חמדנית (greedy):
  - תמיד נבחר בפעולה עם אומדן הערך הגבוה ביותר
- מדיניות אפסילון-חמדנית (epsilon greedy):
  - בהסתברות $ϵ$ נבחר בפעולה באקראי, ובהסתברות $1 - ϵ$ נפעל במדיניות חמדנית
  - חשוב לזכור שגם כאשר אנחנו בוחרים פעולה באופן אקראי, יש סיכוי שנבחר את הפעולה עם האומדן עם הערך הגבוה ביותר. כך שההסתברות לבחור בפעולה עם אומדן הערך הגבוה ביותר היא: $1 - ϵ + \frac{ϵ}{a m o u n t o f o p t i o n s}$
- מדיניות גרדיאנט:
  - מדמה רשת נוירונים ללא קלטים שלומדת ערכי התנהגות ובוחרת מדיניות בהתאם לערך הכי גבוה
  - הבחירה נעשית באמצעות פונקציית softmax
  - פונקציית הבחירה יוצרת מצב שבו הסיכוי לבחור בפעולה עם הערך הגבוה ביותר עולה בעוד שהסיכוי לבחור בפעולות האחרות יורד
- מדיניות SARSA:
  - העדכון הוא עבור צמד מצב פעולה והוא קורה רק אחרי שעוברים למצב הבא ובוחרים פעולה
  - המדיניות לומד את ההתנהגות בפועל, כולל טעויות חקירה, ולכן מתאים למצבים שבהם החקירה עצמה משפיעה על הביצועים.
סוגי סביבות (דפוסי גמול):
- סביבה לא סטוציונרית:
  - התפלגות הגמולים משתנה לאורך זמן, הממוצע הוא "מטרה נעה" ולכן דרך פעולה שנלמדה בעבר עלולה להפוך ללא רלוונטית
  - במקרים אלו נשתמש במקדם של $η$ , נרצה להימנע ממצב שבו המקדם תלוי בזמן שבו אנחנו נמצאים, מכיוון שהסביבה יכולה להשתנות.
- סביבה סטוציונרית:
  - הגמול נדגם מתוך התפלגות קבועה בזמן
  - הממוצע נשאר יציב, ולכן הממוצע שנלמד בעבר הוא מנבע טוב לעתיד
  - במקרים אלו נשתמש במקדם של $\frac{1}{n}$ כך שהעבר מקבל משקל גדול יותר, והוא אכן מנבא טוב לעתיד

בעיית K armed bandit:

יש טעות או חומר חסר?